融合事实信息的知识图谱嵌入

2024-05-01 16:51| 来源: 网络整理| 查看: 265

文章目录知识图谱嵌入融合事实信息的知识图谱嵌入平移距离模型 TransE及其变体 TransE：最具代表性的知识图谱嵌入 TransH：解决TransE在多元关系上的缺陷 TransR：实体和关系在不同的语义空间中 TransD：对TransR的简化 TransSparse：在投影矩阵上强化稀疏性来简化TransR TransM：放松TransE的转化要求，提高模型性能 ManifoldE TransF TransA 高斯嵌入：考虑到实体与关系的不确定性，使用随机变量建模 KG2E：使用高斯分布来表示实体和关系 TransG 其他距离模型非结构化模型UM（Unstructured model）结构化嵌入SE（Structured embedding）平移距离模型总结知识图谱嵌入知识图谱（KG）是由实体 (节点) 和关系 (不同类型的边) 组成的多关系图。每条边都表示为形式 (头实体、关系、尾实体) 的三个部分，也称为事实，表示两个实体通过特定的关系连接在一起。虽然在表示结构化数据方面很有效，但是这类三元组的底层符号特性通常使 KGs 很难操作。为了解决这个问题，提出了一种新的研究方向——知识图谱嵌入。关键思想是嵌入 KG 的组件，包括将实体和关系转化为连续的向量空间，从而简化操作，同时保留 KG 的原有的结构。那些实体和关系嵌入能进一步应用于各种任务中，如 KG 补全、关系提取、实体分类和实体解析。融合事实信息的知识图谱嵌入

步骤：

①使用连续向量空间表示实体关系，关系通常被视为向量空间的运算。 ②定义评分函数，用来测量事实的合理性。 ③学习实体关系的表示，优化问题：最大化全局观测事实的合理性。有两个主要分类： ①平移距离模型 translational distance models 前者使用基于距离的评分函数 ②语义匹配模型 semantic matching models 后者使用基于相似度的评分函数参考：https://www.omegaxyz.com/2020/01/13/kge-semantic-matching-models/ 平移距离模型

平移距离模型利用基于距离的评分函数。通常是在通过关系进行翻译之后，用两个实体之间的距离来衡量一个事实的合理性。下图是TransE及其变体的详细解释。

TransE及其变体 TransE：最具代表性的知识图谱嵌入实体和关系都在同一空间，对于每一个三元组（h,r,t）TransE 希望：

评分函数为： $f_{r}(h, t)=-\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|_{1 / 2}$ 缺点：复杂关系例如，一对多、多对一、多对多关系不适用。

TransH：解决TransE在多元关系上的缺陷可以让一个实体在不同的关系下拥有不同的表示，方法对于一个三元组 (h, r, t) , TransH 首先将头实体向量 h 和尾实体向量 r，沿法线 wr，投影到关系 r 对应的超平面上，用 h⊥和 t⊥表示如下: $\mathbf{h}_{\perp}=\mathbf{h}-\mathbf{w}_{r}^{\top} \mathbf{h} \mathbf{w}_{r}, \quad \mathbf{t}_{\perp}=\mathbf{t}-\mathbf{w}_{r}^{\top} \mathbf{t} \mathbf{w}_{r}$ TransR：实体和关系在不同的语义空间中每一个关系关联着一个特定的空间，首先需要将实体映射到关系空间。 $\mathbf{h}_{\perp}=\mathbf{M}_{r} \mathbf{h}, \quad \mathbf{t}_{\perp}=\mathbf{M}_{r} \mathbf{t}$ 其中转换方式是一个从实体空间到关系空间的投影矩阵。缺点：转换方式是空间投影，复杂度高。 TransD：对TransR的简化

将TransR的投影矩阵分解为两个向量的积。

TransSparse：在投影矩阵上强化稀疏性来简化TransR 它有两种版本，一个是共享型，另一个是独立型，其中share版本的头尾实体共享头一个稀疏投影矩阵，独立型的头尾实体则分别有一个投影矩阵。 TransM：放松TransE的转化要求，提高模型性能为每个事实分配特定的关系权重θ，改变评分函数。 $f_{r}(h, t)=-\theta_{r}\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|_{1 / 2}$ 通过对一对多、多对一和多对多分配较小的权重，TransM 模型使得 t 在上述的复杂关系中离 h+r 更远。 ManifoldE 把 t 近似地位于流形体上，即一个以 h+r 为中心半径为 theta_r 的超球体。

TransF 只需要 t 与 h+r 位于同一个方向，同时 h 与 t-r 也位于同一个方向。

TransA 为每个关系 r 引入一个对称的非负矩阵 Mr，并使用自适应马氏距离定义评分函数。

高斯嵌入：考虑到实体与关系的不确定性，使用随机变量建模 KG2E：使用高斯分布来表示实体和关系

其中高斯分布的均值表示的是实体或关系在语义空间中的中心位置，而高斯分布的协方差则表示该实体或关系的不确定度。KG2E 模型将实体和关系表示为从多变量高斯分布中抽取的随机向量。

$\begin{aligned} \mathbf{h} & \sim \mathcal{N}\left(\boldsymbol{\mu}_{h}, \Sigma_{h}\right) \\ \mathbf{t} & \sim \mathcal{N}\left(\boldsymbol{\mu}_{t}, \mathbf{\Sigma}_{t}\right) \\ \mathbf{r} & \sim \mathcal{N}\left(\boldsymbol{\mu}_{r}, \mathbf{\Sigma}_{r}\right) \end{aligned}$ 通过测量 t-h 和 r 这两个随机向量之间的距离来为一个事实评分，通过两种方法来进行测量。一种是通过 KL 散度（KL 距离）来进行测量，另一种是计算概率的内积。 TransG 实体采用高斯分布，但它认为关系具有多重语义，需要采用混合的高斯分布的表示

其他距离模型非结构化模型UM（Unstructured model）

TransE的简单版本，直接设置所有的r=0

$f_{r}(h, t)=-\|\mathbf{h}-\mathbf{t}\|_{2}^{2}$ 结构化嵌入SE（Structured embedding）通过使用两个独立的矩阵为每个关系 r 对头尾实体进行投影 $f_{r}(h, t)=-\left\|\mathbf{M}_{r}^{1} \mathbf{h}-\mathbf{M}_{r}^{2} \mathbf{t}\right\|_{1}$ 平移距离模型总结

参考文献：Wang Q , Mao Z , Wang B , et al. Knowledge Graph Embedding: A Survey of Approaches and Applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, PP(99):1-1.

【本文地址】

公司简介

联系我们